在生成式AI的道路上,苹果为什么选择小模型?
自发布以来,围绕ChatGPT、Gemini以及Midjourney等大模型引发的核心争议之一,就是它们到底将在我们的日常生活中扮演怎样的角色。而苹果正努力用自家产品Apple Intelligence解答这个问题。就在本周,其已经在WWDC 2024大会上正式亮相。
苹果公司本周的演讲中,AI毫无疑问成为绝对的主角。公司高级副总裁Craig Federighi用实际行动证明,苹果已经下定决心证明其内部模型足以同其他竞争对手的方案一争高下。
虽然究竟能否与大模型匹敌毫无定论,毕竟beta版周一才刚刚发布,但苹果方面已经透露了其生成式AI的一系列独特之处。首先就是应用范围,领域内不少知名厂商在开发模型时都采取了“越大越好”的路线,其目标就是将自家AI系统打造为全球信息的一站式商店。
但苹果则选择了更为务实的技术路线。Apple Intelligence代表一种更具定制性的生成式AI方法,专门以该公司的各类操作系统为基础进行构建。这是一种非常苹果化的产品思维,永远将顺畅丝滑的用户体验放在首位。
从某种意义上讲,Apple Intelligence其实代表着一场品牌推广活动。但如果换个角度,也可以说苹果公司更希望将生成式AI无缝融入其操作系统。哪怕用户完全不了解驱动这些系统的底层技术,也完全没有问题——苹果产品一直都是这样运行的。把复杂的留给自己,把简洁的交给客户。
严禁模型过度膨胀
其中最关键的一点,就是保证模型体量较小:也就是只在专门为其操作系统用户所需的功能类型所设计的定制化数据集上训练系统。目前还不清楚模型大小会对黑箱问题产生多大的影响,但至少在苹果看来,疯狂向模型塞进更多的特定主题只会让系统在做出特定决策时变得更难解释、更不透明。
而由于内部原研的这些模型相对有限,苹果认为这能控制提示系统在总结文本内容时产生过大的波动。最终,提示结果的差异将主要由所总结文本的长度决定。这些操作系统还将搭载反馈机制,用户可以上报生成式AI系统出现的各种问题。
虽然Apple Intelligence比一般大模型应用范围更窄,但仍足以覆盖一系列常见请求,而这就要归功于专门用于不同任务及风格的“适配器”了。而且从广义上讲,苹果在创建模型时也走不了“越大越好”的路线,毕竟自家设备的模型处理能力有限,必须认真考虑尺寸、速度和计算能力等现实因素。
拥抱ChatGPT、Gemini还有更多
考虑到苹果模型的关注点有限,面向OpenAI ChatGPT等第三方模型开放接口也就成了必要之举。苹果方面专门针对macOS/iOS体验进行了系统训练,并确定了大量会超出内部模型能力范围的情景。而一旦系统认为第三方应用程序更适合提供响应,系统会提示用户是否要与外部共享该信息。只要没有收到这样的提示,就表明请求内容正在由苹果的内部模型负责处理。
具体功能体验应该与作为苹果合作方的各外部模型(包括谷歌Gemini)的原生体验保持一致。而这样的提示设计,也让更多人意识到使用生成式AI可能造成的隐私威胁。苹果之所以要求用户在每次调用外部模型时都手动确认,目的可能就是为了消除隐私冲突。毕竟在用户数据的收集和训练方面,每家公司都有不同的标准。
要求用户每次都确认接受,可以为苹果减轻一些责任,哪怕这也会给流程带来一点摩擦。当然,大家也可以选择在系统范围之内不使用第三方平台,但这样做会限制操作系统/Siri所能访问到的数据量。总之,我们无法一口气彻底关闭Apple Intelligence,而只能逐个禁用功能来选择退出。
私有云计算
再有一点,系统到底是在设备之内,不审通过私有云计算通过远程服务器来处理特定查询,目前仍然没有答案。按照苹果的理念来看,这样的披露似乎实无必要,毕竟这就要求服务器遵守与设备端相同的隐私标准、甚至需要采用苹果的第一方芯片。
要确定查询是在设备上还是设备外进行,一种方法就是断开计算设备与互联网的连接。如果问题需要借助云资源解决,但计算机又找不到网络,则系统会抛出错误、表示其无法完成所请求的操作。
苹果正在细分哪些操作需要借助云端处理,而这里面涉及多个具体影响因素,而且AI系统的不断变化也意味着当下需要由云服务解决的任务、未来可能在本机上就能完成。而且在设备上计算往往速度更慢,而速度也是Apple Intelligence在确定任务处理位置时的一项重要考量指标。
当然,也有一部分操作将始终在设备端执行。其中最值得注意的就是Image Playground,因为完整的扩散模型已经确定会存储在本地。苹果对该模型进行了微调,使其能够以三种不同的风格生成图像,分别为动画风、插图风和草图风。其中动画风格看起来很像是乔布斯创立的皮克斯工作室的调性。同样的,文本生成目前也提供三种风格:友好型、专业型和简洁型。
尽管尚处于早期测试阶段,但Image Playground的生成速度已经非常快,通常只需要几秒钟。至于生成人物图像时的包容性问题,系统则会要求用户输入具体信息,而不会直接猜测待绘制对象的种族等信息。
苹果将如何处理数据集
苹果的模型是在许可数据以及对公开可访问信息的抓取之上进行训练的。而负责抓取工作的则是AppleBot。这款网络爬虫已经发展多年,先后为Spotlight、Siri和Safari等应用程序提供上下文数据。如果不愿被其爬取,内容发布者也可以选择拒绝。
苹果方面指出:“通过Applebot扩展,网络发布方可以选择不将其网站内容用于训练苹果的基础模型。这些模型将为苹果产品(包括Apple Intelligence、服务及开发者工具)的生成式AI功能提供支持。”
这是通过在网站代码中包含提示词来实现的。随着Apple Intelligence的上线,该公司又发布了第二段提示词,允许网站既不脱离搜索结果、又不被用于生成式AI模型训练。
负责任的AI
苹果公司在WWDC大会首日发布了一份白皮书,题为《关于苹果设备及服务器基础模型(Introducing Apple’s On-Device and Server Foundation Models)》,其中重点强调了其管理AI模型的原则。总结起来,苹果提出了四项原则:
1. “利用智能工具为用户赋能:我们确保以负责任的方式使用AI技术,以构建满足用户特定需求的工具。我们尊重用户选择如何使用这些工具来实现他们的目的。”
2. “站在用户立场上思考:我们打造高度个性化的产品,目标是真正站在用户立场上思考。我们将持续努力,以避免在我们的AI工具和模型中延续刻板印象和系统性偏见。”
3. “精心设计:我们在流程的每个阶段都采取预防措施,包括设计、模型训练、功能开发与质量评估等环节,以确保我们的AI工具不致被滥用或者导致潜在危害。我们将在用户的反馈和帮助下,不断主动改进我们的AI工具。”
4. “保护隐私:我们通过强大的设备处理与突破性的基础设施设计(如私有云计算)来保护用户隐私。在训练基础模型时,我们不会使用用户的私有个人数据或者用户交互信息。”
苹果对基础模型的定制化设计思路,使得该系统能够根据用户体验进行量身定制。自从第一台Mac问世以来,苹果公司就一直采用这种以用户体验为优先的方法,在不牺牲隐私的前提下,为用户提供尽可能顺畅的服务体验。
但随着操作系统beta版本在今年之内的全面上市,苹果公司也必将直面艰难的平衡与调整挑战。最理想的方法当然是提供尽可能多(或者尽可能少)的最终用户所需信息。当然,很多人其实根本不关心查询是在本机上执行、还是交由云端执行,只要系统能够默认采用最准确、最高效的方法,他们就乐于采用。
至于那些隐私倡导者以及对这些细节抱有关注的人们,苹果肯定得努力实现更高的用户透明度——更不用说那些不愿意把自己的内容来源用于训练AI模型的发布方了。从绝对意义上讲,AI系统的黑箱问题目前还暂时无解,但只要能提供更好的透明度,就应该根据用户的要求尽量满足。
fu.lin@zhiding.cn
基本就是AGI?GPT-4o“它”来了
OpenAI和Google接连两天的大动作,都想让AI助手成“精”